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摘要 : 企业 数字 化 转型 需要 对 数据 进行 全 生命 周期 管理 , 数据 鉴定 归档 是 破解 大 数据 技术 难 
以 直接 处 理 传 统 非 结构 化 文档 问题 的 重要 手段 。 在 企业 数据 治理 基础 上 , 将 主 数据 管理 引入 
到 数据 归档 中 ， 将 企业 数据 分 为 主 数据 、 事 务 数据 、 分 析 数 据 三 类 。 运 用 宏观 鉴定 法 对 这 三 
类 数据 进行 鉴定 ， 确 定数 据 归档 范围 ， 将 ER 图 、 数 据 字 典 、 数 据 血缘 关系 图 谱 等 作为 元 数 
据 纳 入 元 数据 归档 范围 , 以 归档 数据 子 湖 融入 到 企业 数据 湖 建设 作为 数据 归档 保存 最 佳 路 径 。 
档案 部 门 可 以 采取 实行 电子 文件 与 数据 归档 “ 双 套 制 ”、 大 型 国企 先行 试点 数据 归档 、 提 升 
档案 工作 团队 的 数据 素养 主动 参与 数据 治理 等 方式 加 快 融入 到 国家 大 数据 战略 。 
关键 词 ， 主 数据 ， 数 据 归档 ; 数据 鉴定 ， 数 据 湖 
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MmManagement of data. Data identification and archiving is an importanf means to 
solve the problem of traditiona| unstructured documents that are difficult to be 
directly processed by big data technology. Based on enterprise doata 
governance, master data Management is introduced into data archiving, and 
enterprise data is divided into three categories: Master data, transaction data, 
and analyfical data. Using macro identification method to identify these three 
types of data. Determining the scope of data archiving, and include metadata 
such as ER diagrams, data dictionaries, and data lineage diagrams into the scope 
of metadata archiving, integrating archived data into the construction of 
enterprise data lake as the best path for data archiving. The archives department 
can accelerate integration into the national| big doatoa strategy by implementing a 
"dual system" of electronic file and data archiving, piloting data archiving in large 
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enhance the data literacy of the archives work team. 
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随 着 信息 技术 的 飞速 发 展 ， 各 类 计算 机 系统 在 办 公 、 生 产 、 管 理 等 工作 中 得 到 了 广泛 应 
用 ， 各 类 数据 也 海量 生成 。 最初 ， 这 些 数据 沉淀 到 各 自 的 生成 系统 中 ， 彼 此 隔离 。 为 解决 这 


些 所 谓 的 信息 孤岛 ， 实 践 中 又 形成 了 公共 数据 库 、 数 据 仓库 等 ,将 各 信息 孤岛 中 的 数据 建立 
联系 。 近 年 来 ， 又 产生 了 数据 湖 、 数 据 湖 仓 等 容纳 组 织 机 构 所 有 形式 、 海 量 数据 的 集中 式 数 
据 存储 方法 。 

这 些 海 量 数据 包含 结构 化 数据 和 非 结 构 化 数据 。 最 初 ,档案 将 数据 按照 其 关联 关系 加 以 
组 织 形成 可 视 化 的 、 便 于 理解 的 非 结构 化 数据 ， 如 各 类 表单 等 ， 经 过 鉴定 ， 以 纸 质 载体 或 电 
子 载体 进行 归档 保存 。 进 入 大 数据 时 代 ， 为 充分 利用 大 数据 技术 挖掘 档案 信息 内 容 ， 需 要 对 
以 前 以 非 结构 化 形态 保存 的 档案 信息 进行 关键 业务 数据 提取 , 即 档案 数据 化 。 这 个 过 程 涉及 
到 数据 抽取 、 语 法 语义 分 析 等 ， 并 非 易 事 。 学 界 进一步 提出 数据 档案 化 概念 ， 即 将 沉淀 在 业 
务 系统 的 业务 数据 直接 以 结构 化 数据 形态 作为 档案 进行 管理 保存 。 这 两 个 概念 , 本质 上 都 是 
将 档案 内 容 转化 为 计算 机 可 以 处 理 的 数据 , 以 解决 当前 大 数据 技术 难以 直接 处 理 非 结构 化 数 
据 的 难题 。 

学 界 在 相关 理论 研究 层面 做 出 了 非常 有 益 的 探索 和 研究 , 刘 越 男 吕 提出 确保 数据 资源 满 
中 档案 管理 要 求 (真实 、 完 整 、 可 用 、 安 全 ) 的 相关 管控 活动 ， 赵 生 辉 外 等 认为 档案 管理 机 


构 应 当 建 立 数 据 和 档案 双 轮 驱动 的 工作 机 制 ， 赵 跃 久 认为 传统 归档 模式 存在 局 限 ,难以 适应 
数据 时 代数 据 资 源 保存 的 需要 ， 提 出 数据 资源 档案 化 模式 以 变 " 控 制 "为 "干预 "等 。 可 见 ， 学 
> 界 对 于 大 数据 时 代 档 案 工作 应 将 数据 纳入 管理 范畴 已 达成 共识 。 但 目前 ， 对 于 数据 的 鉴定 、 
归档 范围 、 归 档 方法 等 实 操 层面 涉及 较 少 。 因此， 本 文 引入 主 数据 概念 ， 运 用 档案 学 基本 理 
Ee 论 , 尝试 构建 基于 主 数据 的 数据 档案 鉴定 、 归档 与 保存 的 路 径 与 可 操作 性 方法 。 为 论述 方便 ， 


本 文 将 数据 档案 界定 为 以 结构 化 形态 归档 整理 的 档案 , 传统 意义 上 的 档案 称 为 非 结 构 化 档案 。 

1. 基 于 主 数 据 的 企业 数据 分 析 

1.1 企业 数据 关系 分 析 
企业 数据 是 指 所 有 与 企业 生产 、 管理、 经 营 等 活动 相关 的 数据 信息 。 考 察 现代 企业 运营 
过 程 ， 从 来 源 上 可 以 将 企业 数据 分 为 内 部 数据 与 外 部 数据 两 类 。 内 部 数据 是 指 企业 在 经 营 活 
动 中 直接 形成 的 历史 数据 ， 如 员工 数据 、 生 产 数据 、 财 务 数据 、 客 户 数据 、 产 品 数据 等 。 这 
些 数据 主要 以 结构 化 形式 在 企业 各 种 系统 “如 HR、SCM、ERP、CRM 等 ) 中 生成 、 保 存 ， 
利用 时 可 转化 为 非 结构 化 数据 。 外 部 数据 是 企业 为 保障 正常 运营 需要 ,从 企业 外 部 获取 的 数 
据 ， 如 市 场 数 据 、 竞 争 对 手数 据 、 国 家 相关 法 规 标准 、 行 业 数 据 等 。 外 部 数据 以 结构 化 数据 
和 非 结构 化 数据 两 种 形式 进行 采集 和 保存 。 
随 着 国家 大 数据 成 略 的 深入 推进 , 大 数据 技术 在 企业 应 用 越 来 越 广泛 , 数据 成 为 企业 资 
产 重 要 的 组 成 部 分 ,基于 主 数据 管理 的 数据 资产 科学 管理 是 目前 较为 成 熟 、 应 用 较 广 的 方法 
之 一 。 主 数据 管理 从 企业 数据 资产 以 及 治理 角度 将 数据 分 为 主 数据 、 事 务 数 据 、 分 析 数 据 三 


1.2 主 数据 
国家 标准 《数据 管理 能 力 成 熟 度 评估 模型 》 (GB/T 36073-2018) 和 认为 “ 主 数据 是 组 
织 中 需要 跨 系 统 、 跨 部 门 进行 共享 的 核心 业务 实体 数据 ”。 国 际 数据 管理 协会 (Dalta 
Management Association International, DAMA) 定义 主 数据 是 “关于 关键 业务 实体 权 
威 的、 最 准确 的 数据 ， 这 些 实体 为 业务 交易 提供 关联 环境 ” 回 。 定 义 尽 管 不 尽 相 同 ， 但 主 数 
据 反 应 了 一 个 组 织 机 构 核心 业务 实体 状态 属性 的 基础 信息 是 学 界 的 共识 , 如 企业 的 人 员 、 产 
品 、 客 户 、 物 料 、 项 目 等 数据 。 

主 数据 具有 全 局 性 、 共 享 性 等 特征 。 所 谓 全 局 性 是 指 组 织 机 构 内 各 职能 部 门 、 各 业务 流 
程 都 需要 主 数据 , 共享 性 指 主 数据 被 企业 多 个 业务 系统 所 共用 共享 。 正 是 因为 具有 全 局 性 与 
k 享 性 ， 主 数据 在 定义 数据 项 时 不 允许 对 已 经 定义 的 主 数据 项 再 次 修改 , 只 可 以 在 稳定 期 后 
扩展 。 同 时 要 求 主 数据 必须 能 够 为 各 类 异 构 的 业务 系统 所 兼容 。 这 对 于 异 构 、 多 源 、 多 模 态 
的 企业 数据 档案 化 至 关 重 要 ， 为 企业 数据 档案 化 商定 了 主 数据 路 径 基 础 。 
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1.3 事务 数据 


事务 数据 ,是 企业 内 各 部 门 按照 业务 流程 利 月 


各 种 业务 应 用 程序 处 到 


本 部 门 业务 事 务 时 


产生 的 数据 , 是 部 门 完 成 自己 职责 过 程 中 产生 的 数据 , 全 部 业务 数据 完整 记录 了 企业 运营 过 


程 中 的 所 有 的 业务 数据 。 


事务 数据 主要 以 结构 化 形式 生成 、 存 储 于 企业 内 各 类 业务 系统 中 , 如 人 事 、 销 售 、 采 购 、 


财务 等 数据 。 通 过 事务 数据 间 的 聚 类 、 关 联 关 系 ， 形 成 各 种 文件 、 表 单 、 凭 训 
F、 表 单 、 和 凭证 等 非 结构 化 数据 经 过 鉴定 、 


据 。 在 传统 企业 档案 工作 中 ， 这 些 文人 


为 企业 档案 的 有 机 组 成 部 分 。 


需要 注意 的 是 , 事务 数据 包含 条 件 
政策 、 环 保 要 求 、 信 用 等 级 等 。 这 些 
务 数据 ， 外 部 数据 变化 时 ， 事 务 数据 也 相应 变化 。 


1.4 分 析 数 据 


分 析 数据 是 对 前 两 类 数据 按照 需要 
构 化 或 非 结构 化 数据 ， 如 Bl 分析、 各 种 报 


归档 范围 中 。 


运用 数据 分 析 技 术 进 行 深入 分 析 , 经 整合 后 形成 的 结 
、 审 计数 据 等 。 这 类 数据 较 多 出 现在 企业 当前 


结构 化 数 
整理 等 ， 成 


数据 ， 即 在 特殊 情况 或 场景 下 的 事务 数据 。 如 价格 
F} 来 自 于 外 部 数据 ， 在 外 部 数据 约束 下 ， 企 业 生成 事 


考虑 到 当前 企业 档案 管理 对 象 ,图 1 显示 了 三 类 数据 间 的 关系 以 及 与 企业 档案 之 间 的 关 


系 。 图 中 箭头 所 示 方 向 为 企业 数据 支撑 档案 生成 过 程 ， 


则 是 数据 档案 化 。 
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(包含 条 件 型 
数据 ) 


分 析 数 据 


头 有 反方 向 是 档案 数据 化 ， 虚 线 指向 


事务 数据 


2. 数 据 鉴 定 方法 
2.1 宏观 鉴定 法 适用 性 


学 界 关 于 将 数据 纳入 档案 管理 范畴 、 成 为 档案 管理 对 象 之 一 ， 已 基本 达成 共识 。 


据 分 散 于 各 业务 系统 之 中 ,数量 庞 


难以 做 到 对 每 条 数据 进行 鉴定 , 如 
切 需 要 解决 的 问题 。 
档案 价值 鉴定 方法 有 多 种 类 型 


当下 被 利用 的 情况 ， 即 对 文件 的 职 


大 、 种 类 繁多 。 企 业 数 据 的 离散 型 特征 ， 造 成 档案 工作 者 
可 应 用 档案 价值 鉴定 基本 理论 完善 数据 的 鉴定 与 归档 是 迫 


\ 
BI 分 析 、 各 种 报表 、 \ 
审计 数据 等 y 
Ge 企业 档案 
一 一 鉴定 、 整理 一 一 一 > 
文件 、 表 单 、 和 凭证 等 
非 结 构 化 数据 
以 结构 化 形态 保存 于 业务 
系统 数据 库 中 
关系 示意 
企业 数 


。 本 文选 用 宏观 鉴定 法 作为 基本 鉴定 理论 。 所 请 宏观 鉴定 
法 , 指 档案 工作 者 不 再 对 具体 每 份 文件 进行 鉴定 , 而 是 鉴定 这 些 文件 的 各 种 形成 


及 其 在 


经 典 教材 《档案 管理 学 (第 五 版 )》 认 


为 宏观 鉴定 法 是 信息 时 代 档 案 鉴 定 工 作 的 必然 选择 ， 是 对 各 种 业务 信息 系统 中 生成 、 存 储 、 
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归档 的 记录 ， 进 行 批 处 理 鉴 别 的 重要 理论 方法 和 实践 工具 的 
宏观 鉴定 法 为 数据 鉴定 提供 了 一 个 很 好 的 思路 。 一 是 企 


o 


业 数 据 的 分 类 , 正 是 建立 在 数据 


形成 背景 以 及 利用 情况 的 基础 上 ,与 宏观 鉴定 法 有 较 好 的 适应 性 。 二 是 主 数据 治理 ,需要 考 


饼 


会 怠 


来 源 建构 的 思想 理念 是 一 致 的 。 三 是 考察 事务 数据 和 分 析 


适 的 。 机 构 内 各 部 门 为 了 履行 其 职责 , 会 制定 和 开展 各 项 持续 


起 组 织 机 构 的 背景 、 文 化 、 内 部 职能 、 政 策 标准 等 ， 尤 其 是 主 数据 管理 要 求 根据 业务 工作 内 
(不 是 机 构 部 门 》 划 分 职能 域 , 通过 对 各 个 职能 域 进行 业务 分 析 。 这 与 宏观 鉴定 法 基于 职 


数据 来 源 , 应 用 宏观 鉴定 法 是 合 
性 或 一 次 性 的 工作 项 目 和 活动 ， 


这 些 活动 又 引发 具体 的 行动 和 事务 处 理 ， 为 有 效 处 理 这 些 事 务 ， 建立 了 信息 系统 趾 。 由 此 相 


应 生成 了 事务 数据 以 及 分 析 数 据 。 
2.2 基于 宏观 鉴定 法 的 数据 鉴定 方法 


宏观 鉴定 法 认为 鉴定 工作 的 重点 在 分 析 、 鉴 别 那些 数量 可 控 的 职能 、 项 目 、 活 动 及 互动 


的 重要 性 方面 ， 而 不 是 放 在 数量 庞大 的 文件 上 。 从 数据 鉴定 
方面 与 生成 数据 的 相应 信息 系统 结合 起 来 分 析 、 鉴 别 。 
(1) 确认 数据 的 职能 来 源 


看 ， 可 以 将 职能 、 活 动 及 互动 等 


梳理 确认 企业 内 各 部 门 的 职能 ， 以 及 各 部 门 为 有 效 处 理 部 门 事务 建立 的 各 类 信息 系统 。 
通过 建立 企业 各 部 门 职能 与 业务 系统 之 间 的 关系 , 进一步 确认 数据 的 职能 来 源 。 与 业务 人 员 、 
系统 开发 人 员 等 共同 分 析 软 件 的 业务 流程 、 数 据 流程 以 及 数据 处 理 ， 确 认 核 心 业务 、 核 心 基 
础 信息 等 。 这 个 过 程 应 包含 纵向 和 横向 两 个 维度 ， 纵 向 包括 集团 与 下 属 单位 的 系统 ,横向 包 


括 企 业内 的 不 同业 务 系统 。 


单一 业务 应 用 系统 分 析 数 据 的 职能 来 源 相 对 比较 容易 。 跨 整个 企业 甚至 整个 集团 公司 的 


分 析 则 很 难 。 在 分 析 中 ,应 关注 三 个 方面 的 问题 : 一 是 企业 


、 部 门 的 哪些 职能 和 活动 应 该 被 


记录 ,体现 在 哪个 业务 信息 系统 以 及 系统 的 哪个 功能 模块 ， 二 是 哪些 部 门 、 岗 位 在 制定 和 执 


行 关键 性 的 职能 ?在 部 门 业 务 处 理 中 , 形成 了 哪些 数据 和 文 
软件 研发 是 按照 软件 工程 方法 开展 , 业务 系统 的 研发 文档 如 
要 的 分 析 工 具 和 依据 。 

不 同 于 文件 生成 的 单一 性 ， 数 据 生成 可 能 有 多 个 源头 。 


档 ? 三 是 哪些 职能 最 重要 。 由 于 


业务 流程 图 、 数 据 流程 图 将 是 重 


如 招生 系统 、 教 务 系统 、 学 工 系 


统 等 都 有 学 生 数 据 , 三 个 系统 中 的 学 生 数据 很 可 能 不 一 致 。 按 照 上 文 三 个 问题 进行 分 析 就 显 


得 尤为 重要 。 如 果 理 解 到 教务 系统 管理 学 生 学 籍 并 与 教育 行 
其 视 为 制定 和 执行 关键 性 的 职能 。 
(2) 确认 数据 的 血缘 关系 


数据 血缘 是 数据 治理 领域 的 常用 概念 ， 指 在 数据 全 生命 周期 的 各 阶段 ， 从 生成 、 处 理 、 


存储 、 利 用 到 废弃 ， 数据 与 数据 之 间 会 形成 多 种 多 样 的 关系 


政 管理 部 门 进 行 数据 上 报 , 可 将 


， 这 些 关 系 与 人 类 的 血缘 关系 类 


似 ， 因 此 称 为 数据 的 血缘 关系 加。 它 记 录 了 数据 起 源 、 路 径 等 链 路 关系 。 通 过 血缘 关系 ， 可 


以 比较 容易 确定 数据 的 起 源 、 中 间 的 源 数据 库 、 文 件 、 应 用 
门 、 岗 位 ， 从 而 建立 与 数据 职能 来 源 的 深层 次 关系 。 


， 以 及 创造 和 维护 这 些 数据 的 部 


图 2 是 数据 血缘 关系 的 示意 图 〈 非 数据 血缘 关系 可 视 化 标准 图 ) ， 表 X 数据 是 该 业务 


最 终 的 数据 ， 表 A、B、C、D 是 原始 数据 ， 表 E、F、G 是 计算 出 来 的 中 间 表 数据 ， 表 H 是 


可 能 用 到 的 其 他 业务 流程 处 理 过 的 数据 。 从 图 2 中 可 以 清楚 
理 中 常用 桑 基 图 来 可 视 化 数据 关系 链 路 。 


看 到 数据 关系 链 路 。 在 大 数据 管 


表 A 数 据 
表 B 数 据 
表 G 数 据 
表 C( 数 据 表 X 数 据 
» 表 [ 数 据 LS 
表 D 数 据 | 表 H 数 据 


图 2 数据 血缘 关系 示意 


(3) 确认 数据 标准 化 
确认 是 否 标准 化 ,是 否 有 大 量 标准 化 的 、 互 通 互联 的 业务 数据 ， 是 数据 归档 的 前 提 。 没 
_ 标准 化 、 仍 是 信息 孤岛 的 数据 很 难 进行 鉴别 ， 对 所 有 数据 不 加 以 鉴别 全 部 保存 ， 既 不 符合 
> 档案 管理 的 原则 ， 也 使 管理 成 本 急剧 上 升 。 更 重要 的 是 ， 随 着 时 间 延 伸 、 数 据 量 的 增加 ， 没 
1 了 标准 化 的 数据 存储 必 将 成 为 数据 沼泽 ,难以 检索 查询 和 利用 。 前面 介 绍 的 主 数 据 等 都 是 数 
据 治理 、 标 准 化 的 成 果 之 一 。 
(4) 运用 宏观 鉴定 法 基于 职能 来 源 的 理念 进行 鉴定 
依据 上 述 分 析 ， 档案 工 作者 可 以 清晰 理解 企业 各 部 门 职能 、 业 务 活动 的 重要 性 ， 能 够 锁 
定 鉴别 出 企业 内 重要 职能 部 门 所 形成 的 、 记 录 最 简明 、 最 准确 、 最 重要 的 数据 ， 并 将 它们 作 
为 档案 进行 归档 保存 。 
数据 的 多 源 、 异 构 、 离 散 等 特性 造成 上 述 鉴定 方法 的 实际 运用 面临 一 定 困难 。 即 使 在 业 
务 人 员 、 数 据 管理 人 员 、IT 人 员 的 帮助 下 ， 去 追踪 数据 的 血缘 关系 、 确 认 生成 数据 者 职能 的 
重要 性 ， 也 并 非 易 事 。 幸 运 的 是 ， 随 着 数据 管理 理念 与 技术 的 飞速 发 展 ， 数 据 治理 、 主 数据 
管理 、 数 据 血缘 图 谱 、 数 据 湖 、 数 据 湖 仓 等 的 出 现 与 应 用 ， 给 数据 鉴定 工作 带 来 了 转机 。 上 
述 鉴 定 方法 结合 企业 数据 治理 过 程 或 运用 数据 治理 的 结果 , 会 极 大 降低 档案 工作 者 的 工作 量 ， 
尤其 将 极 大 减轻 档案 工作 者 对 数据 鉴定 归档 的 技术 恐惧 感 。 
= 3. 企业 数据 档案 归档 
GO) 企业 数据 治理 解决 的 是 数据 在 全 生命 周期 管理 中 的 质量 、 可 用 性 和 安全 性 等 问题 。 按照 
主 数据 管理 的 理念 和 实践 ， 可 以 围绕 企业 的 三 类 数据 分 别 讨论 其 归档 范围 。 
3.1 数据 归档 范围 
(1) 主 数据 全 部 归档 
作为 反映 一 个 企业 核心 业务 实体 状态 属性 的 基础 信息 ,在 各 个 部 门 、 各 个 业务 系统 间 一 
致 共享 ， 主 数据 满足 了 各 个 部 门 以 及 部 门 间 业务 协同 需要 ， 应 该 全 部 归档 。 如 企业 通用 的 业 
务 标准 类 型 主 数据 (组 织 机 构 、 客 户 供应 商 等 ) 必须 全 部 归档 ， 如 果 企 业 根据 自身 需要 建设 
了 项 目 主 数据 、 产 品 主 数据 、 物 料 主 数据 、 设 备 主 数据 等 ， 也 应 该 归档 。 
(2) 事务 数据 选择 性 归档 
按照 数据 血缘 关系 , 事务 数据 又 可 分 为 原始 实时 数据 、 结果 数据 、 中 间 数 据 、 条 件数 据 。 
实时 数据 记录 企业 的 实时 业务 ,描述 企业 在 某 一 个 时 点 发 生 的 业务 行为 ; 结果 数据 ， 是 表征 
各 部 门 完成 职责 后 生成 的 事务 数据 中 间 数 据 ,是 为 了 生成 结果 数据 ， 在 对 实时 数据 进行 统 
计 、 关 联 计算 等 中 产生 的 数据 。 简 单 的 如 图 2 所 示 。 
事务 数据 归档 有 两 种 逻辑 思路 
一 是 归档 原始 实时 数据 ， 其 他 数据 可 以 不 归档 ， 如 图 2 中 A、B、C、D 表 中 数据 。 


本 图 


因为 ， 从 数据 血缘 关系 看 ， 其 他 数据 都 源 自 原始 数据 。 这 样 的 归档 范围 
定 各 部 门 的 职责 和 重要 性 , 然后 将 其 生成 的 原始 数据 归档 即 可 。 
量 大 、 粒 度 细 ， 便 于 运用 大 数据 技术 分 析 。 其 缺点 也 是 非常 明显 的 ， 归 档 


照 宏观 鉴定 法 , 确 


的 好 


处 是 数据 全 、 


操作 简单 ， 


也 就 是 按 
这 样 归档 


数据 量 庞大 、 信 息 粒 度 过 细 ， 如 果 归 档 后 管理 不 善 ， 可 能 在 档案 部 门 会 产生 数据 沼泽 。 


入 


能 看 


数据 


角度 ， 非 结构 化 分 析 数 据 一 般 情 况 下 都 是 从 结果 数据 归纳 、 统 计 、 关 联 、 聚 类 等 得 到 的 ,在 


保存 


以 人 力 资源 音 


量 较为 庞大 ， 


(3) 分 析 数 据 可 不 归档 


其 二 是 对 结果 数据 归档 ， 原 始 数据 、 中 间 数 据 在 形成 部 门 保存 而 不 归 
表 X 数据 归档 。 条 件数 据 多 数 情 况 下 也 归属 于 结果 数据 ， 如 果 对 结果 数据 归 
连同 数据 一 起 归档 ， 以 保证 数据 归档 的 完整 怕 


归档 后 比较 容易 进行 管理 。 


档 。 如 图 2 中 ， 对 
档 ， 应 将 条 件 
E。 这 种 方法 ， 可 以 比较 容易 根据 部 门 最 重要 职 
定 其 核心 的 关键 数据 作为 归档 内 容 ， 各 部 门 关键 数据 累加 起 来 依然 是 企业 的 全 量 数据 ， 


对 于 企业 当前 归档 范围 而 言 ， 非 结构 化 的 分 析 数 据 往 往 是 归档 对 象 。 然 而 ， 从 数据 管理 


企业 全 量 结果 数据 情况 下 ， 可 以 不 对 其 进行 归档 。 


例如 ， 某 企业 把 人 员 《 员 了 
E 门 为 例 ， 


[、 客 户 、 合 作 伙 伴 等 )、 财 务 、 产 品 等 相关 数据 作为 主 数据 。 
其 核心 业务 之 一 是 人 员 考 核 。 可 能 人 力 资源 部 门 建立 了 复杂 的 考核 体 


系 、 考 核 指 标 ， 并 为 此 需要 从 其 他 部 门 收集 大 量 基础 数据 , 然后 按照 指标 体系 进行 权重 分 析 
等 运算 ， 最 后 给 出 最 终 量化 评价 结果 。 按 照 第 二 种 归档 思路 ， 主 数据 需要 全 部 归档 ， 因 而 人 


员 考 核 业务 归档 的 是 最 终 量化 评价 数据 ， 其 他 大 量 基 础 数据 、 
(4) 利用 数据 


程度 和 原 有 档案 工作 业务 经 验 , 对 档案 工作 人 员 要 求 较 高 。 


[缘分 析 工 具 辅 助 鉴别 事务 数据 价值 


! 间 运算 数据 则 不 需要 归档 。 


由 于 数据 归档 的 相关 法 规 、 标 准 尚未 建立 ， 上述 方法 依赖 于 档案 工作 人 员 对 业务 的 熟悉 


可 以 利用 数据 血缘 分 析 作 为 辅助 


工具 会 同业 务 人 员 、 数据 管理 人 员 一 起 对 事务 数据 价值 进行 鉴别 , 这 种 鉴别 是 基于 数据 实际 
应 用 价值 ， 可 作为 数据 鉴定 较 好 的 辅助 工具 。 数 据 血 缘 关 系 图 谱 直 观 展示 数据 的 流入 节点 、 


va 
a 


察 数据 
越 大 ; 数据 流转 线路 的 线条 越 粗 ， 表 示 数 据 更 3 


节点 、 使 用 量 
缘分 析 认 为 ， 数 据 使 用 者 


数据 


等 。 本 文 不 对 数据 


小 ; 数据 流转 线路 的 线段 越 短 ， 表 明 更 新 越 频繁 ， 数 据 越 鲜 活 ， 价 值 越 高 。 


这 是 一 


所 涉及 的 职能 重要 性 等 综合 分 析 鉴 别 。 


保持 数据 间 的 关联 关系 ， 并 将 这 


文 重点 讨论 表征 数据 关联 关系 的 元 数据 问题 , 对 于 可 能 与 电子 文件 归 


入 下 


18391 系列 、GB/T23824 系列 、GB/T30881 等 ， 对 于 企业 开展 数据 治理 
数据 、 以 及 以 标准 和 统一 的 方式 对 元 数据 进行 定义 有 重要 的 指导 作用 。 对 了 


3.2 元 数据 归 


由 于 结构 化 数据 的 离散 型 特征 ,数据 归档 时 除了 需 对 数据 本 身 归档 外 ,最 习 
关联 关系 作为 数据 归档 的 元 数据 加 以 保存 。 限 于 篇 幅 ， 本 
档 一 致 的 元 数据 不 做 深 


档 范围 


我 国 国家 标准 化 管理 


缘 进行 详细 说 明 ， 只 简单 说 明 如 何 鉴别 数据 价值 。 
研 多 、 使 用 量 级 越 大 、 更 新 越 频 繁 ， 数据 越 有 价值 。 考 
缘 关 系 图 谱 , 右边 的 数据 流出 节点 表示 数据 使 用 者 , 数据 使 用 者 越 多 表示 数据 价值 
折 的 量 级 越 大 ， 一定 程 度 上 反映 数据 价值 的 大 


基于 数据 实际 应 用 的 价值 评估 方法 ,是 对 数据 当前 价值 的 鉴别 , 应 结合 数据 链 


要 的 是 怎么 


委员 会 于 2009 年 发 布 了 元 数据 注册 系统 的 系列 标准 ， 如 GB/T 
时 ， 理 解数 据 的 元 


将 企业 按照 标准 进行 元 数据 管理 的 结果 纳入 到 数据 的 归档 范围 。 
在 档案 治理 过 程 中 , 会 生成 数据 治理 标准 、 主 数据 管理 、 数 据 质 量 管理 、 数 据 安全 管理 
等 一 系列 相关 数据 和 文档 ， 这 些 文档 应 该 是 数据 的 元 数据 元 素 。 如 下 图 所 示 。 


档案 部 门 ， 则 是 


芭 


:202308.00151v1 
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图 3 数据 治理 与 元 数据 


(1) ER 
ER 图 ， 即 实体 联系 〈Entity Relationship ) 图 ， 描 述 了 现实 世界 实体 、 属 性 、 联 系 史 。 
下 图 是 一 个 企业 的 部 分 实体 关系 图 示意 图 。 
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图 4 ER 图 实例 


实际 上 ，ER 图 
关系 对 应 数据 库 的 一 张 表 ， 属 性 值 


是 一 个 可 用 于 数据 库 设计 的 结构 图 ， 在 关系 型 数据 库 设 计时 ， 
是 表 中 的 数据 。 


(如 员工 和 采购 清单 实体 中 的 员工 编 
看 到 员工 、 采 购 商 、 采 购 商 品 之 间 的 


ER 图 可 以 在 各 业务 系统 研发 时 收集 ， 最 


号 属性 ) ， 
逻辑 关系 。 


二 实践 是 在 数据 治 


通常 一 个 


通过 ER 图 创建 数据 表 之 间 的 主 外 键 约束 


理 时 建立 的 ER 图 标识 了 企业 全 部 实体 及 其 关系 , 各 业务 系统 的 ER 图 只 是 局 部 实体 关系 图 。 


(2) 数据 字典 


数据 字典 是 描述 数据 的 信息 集合 


建立 了 数据 之 间 的 逻辑 联系 。 上 图 可 以 清晰 


理 时 进行 收集 ， 因 为 数据 治 


， 通 过 对 数据 的 数据 项 、 数 据 结构 、 数 据 流 、 数 据 存储 、 


处 理 逻 辑 等 进行 定义 和 描述 ， 


从 而 对 企业 所 有 业务 系统 使 用 的 所 有 数据 元 素 进行 定义 591。 


数据 字典 通常 包括 数据 项 、 数 据 结构 、 数 据 流 、 数 据 存储 和 数据 处 理 过 程 等 五 个 方面 的 内 容 。 


下 面 以 数据 项 、 


与 其 他 数据 项 的 逻辑 关系 等 


数据 存储 、 处 理 过 程 为 例 说 明 数 据 字 典 作为 数据 元 数据 的 必要 性 。 
数据 项 包括 数据 项 名 、 数 据 项 含义 说 明 、 别 名 、 数 据 类 型 、 
， 是 对 ER 图 中 实体 属性 的 准确 描述 。 数 据 处 理 


长 度 、 取 值 


人 各 义 x 


了 原始 数据 


ee 


事务 数据 存储 的 描述 与 说 明 。 

数据 字典 是 在 对 企业 各 部 门 职能 
据 自 身 以 及 数据 间 的 关系 。 
个 供应 商 采 购 了 特定 数量 的 某 商品 。 


与 业务 所 使 用 的 数据 进行 详细 分 析 后 建立 的 , 体现 了 数 


以 图 3 为 例 建立 的 数据 字典 , 可 以 知 


晓 某 员工 在 某 时 刻 通 过 某 一 


同 ER 图 一 样 ， 数 据 字典 最 好 在 数据 治理 完成 时 收集 。 

(3) 数据 血缘 图 谱 

数据 血缘 关系 是 元 数据 分 析 的 重要 方法 ,数据 血缘 图 谱 是 用 可 视 化 方法 展示 数据 怎么 来 
的 ， 经 过 了 那些 过 程 、 阶 段 及 运算 逻辑 ， 实 际 上 是 对 数据 字典 中 数据 流 、 处 理 过 程 等 的 可 视 
化 展示 。 

数据 血缘 图 谱 应 用 可 以 使 数据 字典 专注 于 数据 项 的 描述 与 说 明 。 如 果 数 据 血缘 关系 图 谱 
作为 元 数据 进行 了 归档 ， 数 据 字 典 可 以 只 归档 数据 项 部 分 

数据 血缘 图 谱 应 该 在 数据 治理 结束 后 借助 大 数据 治理 工具 生成 后 收集 。 

(4) 指针 链接 

分 析 到 目前 ， 出 现 了 一 个 有 意思 的 现象 ， 即 电子 文件 〈 非 结构 化 数据 ) 其 元 数据 为 结构 


化 数据 ， 


3.3 确定 保管 期 限 
企业 数据 可 按照 职能 与 业务 链 的 


期 限 表 来 指导 归档 数据 的 保管 

重要 性 分 为 重要 客户 的 信息 永久 保存 ， 

客户 信息 属于 主 数据 范畴 ， 可 以 将 相 忆 
企业 生产 运营 生成 诸多 报表 ， 


重要 性 , 确定 


保存 30 年 。 将 呵护 信息 映射 到 数据 ， 


期 限 表 13.10 客户 信息 按照 


结构 化 数据 的 元 数据 则 可 能 为 非 结构 化 元 数据 。 为 此 ,可 应 用 指针 链接 方法 建立 结 
构 化 数据 与 非 结构 化 元 数据 之 间 的 关系 , 从 而 将 相应 的 指针 链接 也 作为 元 数据 之 一 加 以 保存 。 


其 不 同 的 保管 期 限 。 目 前 一 个 比较 可 操作 
的 方法 是 在 企业 数据 与 国家 档案 局 10 号 令 保管 期 限 表 之 间 的 映射 ， 利 用 企业 现 有 档案 保管 
期 限 。 如 10 号 令 企业 管理 类 保管 

一 般 客户 信息 
应 主 数据 按 永 久 和 30 年 进行 划分 保管 期 限 。 
这 些 报 表 大 部 分 是 从 业务 系统 / 跨 系 统 数据 库 提取 数据 建 


口 


六 数据 间 关 联 关系 (如 各 种 运算 等 ) 形成 的 。 如 果 在 企业 的 归档 范围 并 划分 了 保管 期 限 ， 同 


样 可 建立 其 与 相应 数据 之 间 的 映射 关系 ,确定 报表 涉及 的 数据 ,按照 数据 血缘 关系 图 谱 追 


其 数据 链 ， 按 照 本 文 4.1 事务 数据 归 


档 的 思路 ， 帮 


全 


We an 


J 理 系统 主要 
理 的 能 力 ， 结构 化 形态 
践 ， 可 以 集中 存储 企业 内 海量 、 


是 为 非 结 构 化 形态 
的 数据 档案 需要 


档案 管 


定 相应 数据 的 保管 期 限 。 


村 


理 而 设计 开发 的 , 基本 没有 数据 档案 管 
重 构 保 存 环 境 。 数 据 湖 是 目前 数据 存储 平台 的 较 好 实 
多 源 、 异 构 、 多 种 类 的 数据 ,同时 支持 对 数据 进行 快速 检索 、 


加 工 和 分 析 。 

4.1 基于 数据 湖 的 数据 保存 

数据 湖 尚未 有 统一 的 概念 ， 考 察 各 种 定义 ， 有 以 下 共同 特性 : 数据 湖 是 一 个 集中 式 数据 
存储 库 ， 企 业 可 以 将 其 全 量 数据 存储 在 所 搭建 的 数据 湖 中 4。 因此 ， 数 据 湖 有 足够 的 数据 
存储 能 力 和 完备 的 数据 管理 能 力 ， 以 保存 一 个 企业 的 全 量 数 据 , 包括 结构 化 、 半 结构 化 和 非 
结构 化 数据 ， 同 时 可 以 管理 这 些 信息 的 关键 要 素 ， 如 数据 源 、 格 式 、 权 限 等 。 

一 般 说 来 , 数据 湖 中 的 数据 是 企业 业务 数据 的 完整 原始 副本 ， 和 业务 系统 中 的 数据 保持 
一 致 性 。 因此 , 数据 湖 还 具备 数据 生命 周期 管理 能 力 , 也 就 是 说 , 数据 湖 不 仅 存储 原始 数据 ， 
还 能 保存 各 类 分 析 处 理 的 中 间 数 据 、 结 果 数 据 ， 并 能 完整 记录 数据 的 分 析 处 理 过 程 ， 以 便 用 
户 能 详细 追溯 任 一 数据 的 产生 过 程 。 

作为 企业 全 量 数据 的 集散 地 , 数据 湖 基本 具备 了 归档 数据 来 源 的 条 件 ， 从 而 避免 档案 前 
门 从 一 个 个 业务 系统 收集 数据 的 麻烦 与 困难 。 同 时 数据 湖 还 具备 完善 的 数据 获取 和 发 布 能 
即 能 定期 不 定期 的 从 相关 业务 系统 中 获取 全 量 或 增 量 数据 , 进行 规范 存储 。 这 也 为 增 量 数据 
的 归档 提供 了 条 件 。 
现 有 档案 管理 系统 不 能 对 数据 进行 有 效 收集 、 存 储 与 管理 ， 数 据 湖 强大 的 数据 收集 、 存 
储 与 管理 能 力 弥 补 了 档案 管理 系统 的 缺陷 。 可 以 考虑 在 数据 湖 中 留 下 特定 的 存储 区 域 ， 建 立 
数据 档案 子 湖 ， 用 于 归档 数据 的 保存 ， 如 下 图 所 示 。 
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图 5 企业 数据 湖 与 档案 子 湖 
到 5 中 , 数据 档案 子 湖 可 以 是 企业 数据 湖 的 一 部 分 , 也 可 以 是 一 个 单独 的 集中 存储 数据 
档案 的 存储 平台 ,企业 数据 湖 主要 用 于 粒度 较 细 的 数据 管理 与 业务 ,档案 湖 则 是 粒度 较 大 的 、 
既 支撑 企业 当前 利用 又 保存 企业 历史 数据 的 存储 平台 。 

4.2 某 大 型 国企 数据 湖 建设 与 数据 归档 

当前 ， 许 多 大 型 国企 如 中 国 石化 、 中 国 石油 、 中 海 油 、 南 方 电网 、 中 国 移动 等 在 产业 数 
字 化 转型 中 ， 均 已 开展 数据 湖 建设 。 其 中 ， 中 海 油 正在 进行 全 集团 的 数据 湖 二 期 项 目 建设 。 
笔者 作为 咨询 专家 参与 了 中 海 油 天 津 菜子 公司 数据 子 湖 建设 。 

(1) 某国 企 数 据 湖 建设 规划 

该 国企 集团 总 部 提出 数据 湖 是 集团 数字 化 转型 的 支撑 , 是 数据 治理 的 支撑 , 是 核心 业务 
的 支撑 。 设 计 规 划 统 一 数据 湖 如 下 图 所 示 ， 以 实现 数据 的 高 效 采 集 、 全 面 汇 京 、 数 据 资产 高 


质量 管控 、 统 一 共享 、 多 维 服务 。 


数据 应 用 


ee 
数据 (、 主 数据 管理 ) 《数据 模型 管理 ) (数据 安全 管理 ) 
管理 〈 数 据 架 构 管理 ) (数据 质量 管理 ) (数据 归档 管理 ) 
结构 化 数据 | 文档 数据 | 音频 视频 | ” 体 数据 ”| 实时 数据 图 片 
集团 总 部 云 
个 业务 标准 数据 、 主 数据 交互 
专业 技术 服务 公司 数据 湖 


”专业 数据 湖 专业 数据 


统一 数据 湖 


图 6 集团 统一 数据 湖 示 意图 
图 中 ,各 专业 技术 服务 公司 依据 统一 技术 架构 ， 建 设 本 单位 数据 湖 平台 ,支撑 本 单位 内 
部 数据 应 用 ， 数 据 标准 与 总 部 一 致 ， 并 实现 数据 向 集团 统一 数据 湖 汇聚 。 数 据 管理 功能 实现 
对 上 游 生产 数据 目录 、 架 构 、 标 准 、 安 全 、 质 量 以 及 元 数据 、 主 数据 等 治理 成 果 进 行 集 中 管 
理 , 同时 支持 上 游 生产 数据 运营 工作 。 集团 总 部 数据 湖 对 各 分 子 公 司 、 专 业 公司 数据 湖 标准 
数据 进行 汇聚 、 融 合 ， 统 一 构建 上 游 数 据 湖 ， 基 于 数据 湖 进行 数据 分 析 ， 为 各 类 应 用 提供 统 
一 数据 服务 。 

(2) 数据 归档 管理 

集团 总 部 数据 湖 、 各 公司 数据 子 湖 作 为 一 种 集约 式 基 础 设施 , 明确 提出 数据 归档 以 实现 
数据 的 全 生命 周期 管理 ， 见 图 6。 这 里 的 归档 包括 两 层 含义 ， 其 一 是 IT 视角 下 ， 根 据 数据 冷 
热 分 析 ， 制 定数 据 的 存储 策略 ， 实 现在 线 、 近 线 、 离 线 三 级 存储 。 其 二 是 档案 视角 下 ， 对 数 
据 进行 鉴定 ， 保 存在 特定 的 档案 存储 区 域 。 
档案 部 门 在 数据 治理 过 程 中 , 提出 内 外 双 循 环 理念 , 即 档案 管理 规则 嵌入 数据 治理 过 程 、 
保障 数据 档案 合 规 管控 、 高 效 运转 的 内 循环 ， 档 案 价值 嵌入 核心 业务 场景 (如 设备 运 维 ) 数 
据 的 外 循环 。 基 于 双 循 环 理念 ,档案 部 门 积极 参与 数据 治理 过 程 ， 基 于 档案 业务 的 真实 数据 
保管 、 权 威 数据 分 发 、 业 务 证 据 锁 定 、 数 据 资产 管控 等 核心 价值 ， 将 档案 管理 规则 与 价值 合 
理 嵌 入 产业 链 、 数 据 链 的 主线 ， 主 动 积极 参与 到 数据 治理 过 程 ， 完 成 关键 业务 系统 数据 归档 
与 数据 智慧 监管 服务 ， 甚 实 操 则 是 依据 文中 提出 的 鉴定 、 归 档 存储 思路 。 

5. 数 据 归档 的 若干 建议 

(1) 实行 电子 文件 与 数据 归档 “ 双 套 制 ” 

数据 档案 化 、 数 据 归档 目前 尚未 有 较为 成 熟 的 理念 、 模 式 与 最 佳 实践 ,为 了 迎接 大 数据 
时 代 的 挑战 ， 加快 融 入 国家 大 数据 战略 ， 激 发 数据 要 素 活 力 ， 可 以 像 纸 质 档案 与 电子 文件 双 
套 制 归 档 一 样 ， 实 行 电子 文件 与 数据 归档 “ 双 套 制 ”。 

(2) 试点 先行 

可 以 在 大 型 国企 试点 数据 归档 ， 尤 其 是 进行 了 数据 治理 、 实 现 主 数据 管理 、 数 据 湖 已 初 
步 建立 的 大 型 国企 , 基本 已 具备 数据 归档 的 基础 设施 条 件 , 建立 了 数据 标准 化 体系 和 完善 的 
数据 全 生命 周期 管理 制度 拥有 较为 强大 的 数据 管理 工具 。 更 重要 的 是 ， 大 型 国企 按照 国家 
数字 化 转型 、 提 升 数 据 要 素 活力 的 宏观 政策 ， 对 于 数据 归档 有 着 迫切 的 需求 。 

(3) 提升 档案 工作 者 的 数据 素养 与 能 力 ， 主 动 参与 数据 治理 

大 数据 时 代 对 档案 工作 的 要 求 越 来 越 高 , 档案 不 仅 是 各 项 业务 办 结 后 的 信息 归宿 , 更 是 


作 


业务 数据 全 生命 周期 中 数据 质量 监管 、 管 理 优化 的 重要 工具 。 档案 工作 队伍 应 吸纳 数据 管理 
方面 人 才 ， 档 案 工 作者 不 仅 要 具备 档案 信息 化 、 电 子 文件 管理 等 方面 的 知识 ， 还 应 逐渐 具备 
数据 素养 和 一 定 的 数据 管理 能 力 ， 掌 握 探索 数据 、 理 解数 据 并 使 用 数据 进行 交流 的 能 力 ， 主 
动 以 档案 人 员 身 份 参与 到 数据 治理 中 , 就 数据 全 生命 周期 与 企业 业务 数据 链 的 关键 节点 提出 
档案 的 管理 理念 和 要 求 ， 实 现 企 业 数据 的 鉴别 归档 保存 以 及 有 效 管理 
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